1. Code LLM#

1.1. 学习资料#

1.2. 开源模型#

1.2.1. 主流模型#

1.3. 研究机构#

1.3.1. 国际机构#

1.3.2. 国内机构#

1.4. 论文合集#

1.4.1. Awesome 系列#

1.5. 评测基准#

1.5.1. 代码生成评测#

  • HumanEval OpenAI 提出的代码生成经典评测集
  • SWE-bench 真实 GitHub issue 修复任务评测

1.6. 核心技术#

1.6.1. 预训练技术#

  • 代码语料收集和过滤
  • 多语言代码训练
  • 代码结构理解

1.6.2. 微调技术#

  • 指令微调
  • 偏好对齐
  • 多任务学习

1.6.3. 推理优化#

  • 代码补全
  • 代码修复
  • 代码理解

1.7. 🎓 训练指南专题#

完整教程: 1. 如何训练 SOTA 代码大模型 - 完整训练流程和技术细节 2. Code LLM 训练快速开始 - 30 分钟理解核心概念 3. Code LLM 关键论文阅读清单 - 精选 30 篇核心论文

核心论文: - DeepSeek-Coder (2024) - 预训练最佳实践 - WizardCoder (2023) - Evol-Instruct 指令进化 - Magicoder (2023) - OSS-Instruct 开源指令生成 - StarCoder2 (2024) - 多语言代码预训练 - OpenCoder (2024) - 开源训练手册